Карань Анна
студентка факультета биоинженерии и бионформатики

Предсказание генов эукариот

Задание 1

В этом задании необходимо описать выданный контиг и один из генов на нем, для которого предсказан альтернативный сплайсинг. Мне выдан контиг NW_010729237.

Рис.1. Фото из геномного браузера гена LOC104586694 с альтернативным сплайсингом. Наблюдается 2 изоформы histidine kinase 5 isoform X1 и X2, отличаются наличием или отсутствием 3-го экзона.

Последовательность контига: cont.fasta.
Контиг принадлежит Nelumbo nucifera, Лотосу орехоносному.

Рис.2. Фото Nelumbo nucifera

Всего 28 генов по аннотации NCBI, 41 CDS, 10 misc_RNA. Длина гена, выбранного на Рис.1., равна 53553.

Рис.2. Фото из геномного браузера изоформы X1.

Задание 2

В этом задании необходимо предсказать гены и белок-кодирующие области в выданном контиге с помощью web-сервера AUGUSTUS.

Результаты, выданные Augustus.
prediction.tar.gz - архив со всеми файлами.
augustus.aa - трансляции предсказанных генов в формате .fasta
augustus.gff - предсказания генов в формате .gff
augustus.gtf - предсказания генов в формате .gtf
augustus.mrna - предсказанные мРНК в формате .fasta
augustus.cdsexons - предсказанные экзоны в формате .fasta
augustus.gbrowse - координаты найденных генов, мРНК и т.д.

Далее надо сравнить предсказанные гены. Я буду сравнивать координаты лишь экзонов, потому что программа AUGUSTUS предсказывает с помощью параметров, которые в интронах будут как не в кодирующих последовательностях.

AUGUSTUS parameter project identifier: arabidopsis
Genome file: cont.fasta
User set UTR prediction:true
Report genes on: both strands
Alternative transcripts:few
Allowed gene structure:predict any number of (possibly partial) genes
Ignore conflictes with other strands: false

Был выбран arabidopsis как наиболее близкий таксономически к исследуемому лотосу из предлагаемых вариантов: Arabidopsis thaliana, Solaneum lycopersicum (томат), Triticum/wheat (пшеница мягкая), Zea mays (Кукуруза сахарная).
Координаты экзонов из Genbank: cds.
Анализ проведен с помощью программы compar.py, алгоритм работы программы для сравнения такой же как и для прокариот в 11 практикуме, а также подробно описан в комментариях.

Таблица 1. Оценка предсказания AUGUSTUS (сравнение реальных генов, т.е. аннотации Genbank с предсказания
Число генов с совпадащими координатами Процент верно предсказанных геновЧисло генов с несовпадающим началом Процент таких геновЧисло генов с несовпадающим концомПроцент таких геновЧисло генов, ни один конец которых не предсказан AUGUSTUS Процент таких генов
10052,91%157,94%2312,17%5126,98%

Процент предсказания сильно ниже, на целых 20%, чем у программы Prodigal для прокариот, но и гены (экзоны в данном случае) у эукариот предсказывать сложнее. Однако, проблема еще в том, что огромное число ложных предсказаний, т.е. лишних в AUGUSTUS, их больше в разы, чем верно предсказанных, что полностью сводит на нет эффективность этой программы для предсказания экзонов эукариот.
Для гена, изображенного на Рис.1., предсказано лишь 4 экзона из 12, и в разы больше лишних предсказаний. Эти различия объясняются всей спецефичностью (а точнее низкой эффективностю) программы.


©Карань Анна, 2015